Einordnung - Verschiedene Arten von Gewichten

Designgewicht

Anpassungsgewichte

Gesamtgewicht

Gesamtgewicht = Design-Gewicht * Anpassungsgewicht

Eigenschaften von Gewichten

Grundlagen der Designgewichtung

Was sind Design-Gewichte

  • Stichprobenziehung - also keine Vollerhebung
  • ungleiche Wahrscheinlichkeiten - bspw. durch Schichtung und Klumpung

Allgemeine Überlegungen zum Erhebungsdesign

  • Ziel der Erhebung
  • Genaue Definition der Grundgesamtheit
  • Mögliche Auswahlrahmen
  • Erhebungsmodus
  • Externe Daten
  • Aussagen über Subgruppen
  • Modellvorstellungen
  • Nonresponse
  • Stichprobendesign
  • Schätzverfahren, Gewichtung
  • Stichprobenkosten
  • Software
  • Dokumentation, Methodenbericht

Erhebungsmodus

  • persönlich-mündlich
  • telefonisch
  • schriftlich
  • online
  • social media
  • mixed mode

Überblick Zahlen Erhebungsmodus

Zahlen des ADM

Zahlen des ADM

Beispiele von Bevölkerungsumfragen

  • BIBB/BAuA-Erwerbstätigenbefragung - Arbeit und Beruf im Wandel, Erwerb und Verwertung beruflicher Qualifikationen

http://www.bibb.de/de/62622.htm

  • Mikrozensus (1 Prozent Stichprobe)

https://www.destatis.de/DE/ZahlenFakten/GesellschaftStaat/Bevoelkerung/Mikrozensus.html

https://www.destatis.de/DE/Publikationen/Qualitaetsberichte/Bevoelkerung/Mikrozensus2013.html

  • European Social Survey

http://ess.nsd.uib.no

http://www.europeansocialsurvey.org

  • PIAAC

http://www.gesis.org/piaac/piaac-home/

Vorteile von Stichproben

  • Stichproben in der Regel billiger
  • Geringere Belastung für die Bevölkerung
  • Ergebnisse stehen bei Auswahlen schneller zur Verfügung
  • Geringere Größe des Mitarbeiterstabes notwendig, bessere Schulung möglich
  • Größere Messgenauigkeit bei Auswahlen (Fachleute)
  • Besserer Umgang mit Ausfällen möglich (Nachfassaktionen, evtl- auch mit Incentives)
  • Einzige Möglichkeit bei Zerstörung des Untersuchungsgegenstandes (z-B- Gütekontrolle bei Glühlampen, Elchtest, Blutgruppe)

Einschränkungen bei Stichproben

  • Stichproben bei verhältnismäßig kleinen Grundgesamtheiten nicht sinnvoll
  • Aussagen für kleine Subgruppen unpräziser als bei Totalerhebung
  • Bei sehr heterogenen Grundgesamtheiten eher Totalerhebung (z-B- Fingerabdrücke in einer Population im Gegensatz zu Blutzellen in einem Körper)
  • Totalerhebungen sind einzige Möglichkeit bei Gefahr der Zerstörung der Grundgesamtheit (z-B-Rückrufaktion)

Grundgesamtheit

  • Die Grundgesamtheit (engl- target population) ist die Menge von Elementen, für die Aussagen - z-B- unter Zuhilfenahme von Statistiken aus einer Stichprobe - gemacht werden sollen- Sie wird auch Population, Untersuchungs- oder Zielgesamtheit bezeichnet-
  • Sie muss sachlich, räumlich und zeitlich definiert sein-
  • Sie muss an der Themenstellung und an der praktischen Durchführbarkeit orientiert sein

Auswahlrahmen/Auswahlgesamtheit

  • Der Auswahlrahmen (engl. sampling frame) ist eine Liste von Einheiten (engl. sampling units), aus dem die Stichprobe gezogen wird und über den man Zugang zu den Untersuchungseinheiten erhält (z.B. das Telefonbuch). - Die über den Auswahlrahmen erreichbaren Einheiten bilden die Auswahlgesamtheit.

  • Idealerweise enthält der Auswahlrahmen genau alle Einheiten der Untersuchungsgesamtheit. In der Praxis ist das aber selten der Fall.

Coverage

  • Ist ein Element der Grundgesamtheit im Auswahlrahmen bzw. der Auswahlgesamtheit nicht enthalten, gehört es zum „undercoverage“ , d.h. zu einem Fehlbestand. Ein Beispiel wären die Personen, die nicht im Telefonfonbuch stehen.

  • Gehört ein Element des Auswahlrahmens nicht zur Grundgesamtheit, spricht man von „overcoverage“, d.h. von Karteileichen oder Überhöhung. Ein Beispiel wären Geschäftsnummern im Telefonbuch.

Die Auswahlgesamtheit

Auswahlgesamtheit

Auswahlgesamtheit

Stichprobendesign

Beispiel einfache Zufallsstichprobe

## Population: 1 2 4 4 7 7 7 8
## 1. Stichprobe (n=4):7787
## 2. Stichprobe (n=4):7227
## 3. Stichprobe (n=4):8747
## 4. Stichprobe (n=4):8477
## 5. Stichprobe (n=4):2847
## 6. Stichprobe (n=4):7484
## 7. Stichprobe (n=4):7274
## 8. Stichprobe (n=4):2447

Was passiert bei vielen Stichproben

Systematische Stichprobe

Cluster Sample

Beispiel aus Lohr

Beispiel aus Lohr

Schichtung

Beispieldatensatz Schichtung

state region income
nc 1 46.84389
nc 1 678.59072
nc 1 878.58315
nc 1 764.14604
nc 1 808.08004
nc 1 244.96278
state nc state sc
region 1 100 30
region 2 50 40
region 3 15 0

Stratified Random Sampling (STRAT)

Stratified sampling with disproportional allocation

Stratfied Sampling

Stratfied Sampling

Horvitz-Thompson estimator is identical to the usual stratified estimator

Beispiel Lohr

state acres92 acres87 region weight
NE 297326 332862 NC 10.23301
IN 124694 131481 NC 10.23301
OH 246938 263457 NC 10.23301
MI 206781 190251 NC 10.23301
WI 78772 85201 NC 10.23301
MN 210897 229537 NC 10.23301

Beispiel Lohr agstrat.dat Strata: North Central, Northeast, South, West

Beispiele von Lohr

acres87
acres92 0.9865652
acres87
acres92 3.66e-05

Horvitz Thompson

The Horvitz-Thompson estimator for the total T_y is defined by

Horvitz Thompson

Horvitz Thompson

It is unbiased if all inclusion probabilities are positive. The variance of the Horvitz-Thompson estimator is given by:

Variance HT

Variance HT

If all inclusion probabilities of second order pi_ij are positive we have:

VarianceHT2

VarianceHT2

Formel 1

Formel 1

Grundlagen der Anpassungsgewichtung

Cell Weights

Cell Weights

Cell Weights

The iterative proportional fitting algorithm (IPF) is an iterative algorithm for estimating cell values of a contingency table such that the marginal totals remain fixed and the estimated table decomposes into an outer product.

Deming and Stephan(1940)

Nonresponse

Non Response

Non Response

Nonresponse

  • Sometimes, answers for some units of the selected sample are either totally or partly missing.
  • This is referred to as nonresponse.

  • Sources for unit non-response can be not-athomes, refusals, unable to answer or not found.
  • If a respondent answers some but not all the items, these missing are referred to as item non-response.

  • Non-response is a very serious problem and the treatment of which requires modeling assumptions.

  • Therefore, it may be easier to deal with non-response in the framework of model-based inference.

  • Usually, weighting procedures are applied for treating unit non-response and imputation methods for item non-response. Calibration estimators are used very often nowadays to get a grip on the non-response problem.

Calibration Estimator (GREG)